Классическое обучение с учителем
Эта глава посвящена обучению с учителем (supervised learning) — направлению машинного обучения, где алгоритм учится на размеченных данных.
Это означает, что каждому объекту из обучающего множества сопоставлено известное целевое значение из множества . Основная задача здесь — обучить алгоритм, который позволяет предсказывать целевую переменную для новых объектов.
Глава состоит из шести параграфов.
Во втором мы сформулируем задачи классификации и регрессии и расскажем, как решать эти задачи с помощью линейных моделей, в которых предсказываемое значение вычисляется как взвешенная сумма входных признаков.
Третья посвящена методам, которые не ищут глобальные закономерности в данных, а основываются на локальном предположении о том, что свойства объекта определяются его соседями.
Центральное место здесь занимает метод k-ближайших соседей (k-nearest neighbors, KNN). Мы обсудим его преимущества и недостатки, а также рассмотрим подходы для эффективного поиска ближайших объектов, что критически важно для производительности этих алгоритмов.
В четвёртом параграфе мы изучим решающие деревья — семейство моделей, которые предсказывают целевую переменную через последовательность простых решающих правил (предикатов).
Решающее дерево строит сложную решающую поверхность путём иерархического разделения пространства признаков. Этот процесс интуитивно понятен и во многом имитирует естественный для человека механизм принятия решений, что делает такие модели хорошо интерпретируемыми.
Пятый параграф ответит на вопрос, как объединить несколько моделей, чтобы получить качество выше, чем у каждой из них по отдельности. Мы подробно разберём процедуры смешивания алгоритмов, включая стекинг, бэггинг и построение случайных лесов. Эти техники позволяют существенно повысить точность и устойчивость предсказаний, компенсируя слабости отдельных базовых моделей.
Завершает обзор шестой параграф, посвящённый градиентному бустингу — самому мощному семейству не-нейросетевых моделей.
В отличие от независимого обучения в бэггинге, бустинг реализует идею последовательного построения ансамбля, где каждый следующий алгоритм стремится исправить ошибки предыдущих. Мы детально изучим градиентный бустинг решающих деревьев (GBDT), который является стандартом индустрии для работы с неоднородными табличными данными, выигрывая большинство современных соревнований.
Давайте приступим!